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摘 要 : [目的 /意义 ] 主题 演化 对 科技 前 沿 探 测 、 创 新 战略 部 署 具 有 十 分 重要 的 作用 。[ 方 法 /过 程 ] 将 主题 演化 分 析 过 
程 分 解 为 主题 的 表示 、 相 似 性 关联 和 强度 演化 计算 几 个 步骤 ,提出 一 种 主题 强度 演化 与 预测 模型 ,使 用 LDA 模型 
进行 主题 的 表示 ,提出 内 容 、 共 现 和 趋势 相似 度 等 维度 进行 主题 关联 计算 ,引入 基于 Prophet 的 预测 -修正 模型 进 
行 主 题 演化 趋势 预测 。 并 以 干细胞 领域 为 例 ,进行 演化 的 实证 分 析 。[ 结果 /结论 ] 实验 表明 ,对 每 个 研究 主题 采 
用 Logistic 增长 模型 进行 预测 R2Score 都 达到 0.90 以 上 ,表明 Prophet 中 的 Logistic 增长 模型 与 该 领域 主题 增长 趋 
势 规律 相符 合 ,能 够 较 好 地 拟 合 主题 强度 的 演化 趋势 。 提 出 的 主题 演化 模型 对 专业 领域 内 主题 分 布 与 演化 分 析 
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CD 研究 主题 演化 是 对 研究 主题 的 产生 、 扩 散 和 发 展 
过错 的 挖掘 ,分 析 和 展示 。 它 能 够 帮助 情报 分 析 和 科 
HERR DL eti ,客观 地 把 握 领 域 的 创新 发 展 规律 , 因 
而 成 为 科技 前 沿 探测 .技术 预见 以 及 科技 路 线 图 制定 
中 芍 基 础 性 核心 性 工作 。 深 刻 认 识 并 准确 把 握 领 域 
科技 创新 规律 与 演化 趋势 ,系统 谋划 创新 发 展 新 路 径 ， 
对 年 科技 前 沿 预 测 、 创 新 战略 部 署 具有 至 关 重 要 的 作 
用 5 在 大 数据 时 代 , 科 技 文 献 数量 爆发 式 增长 ,通过 大 
规 错 知识 计算 理论 方法 对 海量 科技 文献 进行 深度 、 自 
动 化 的 加 工 和 挖掘 ,成 为 目前 研究 主题 演化 的 主流 方 
法 。 


1 研究 现状 


研究 主题 演化 和 创新 前 沿 预测 是 情报 学 关注 的 基 
本 问题 之 一 ,在 情报 学 初创 时 期 已 经 被 提出 来 ,经 历 了 
40 余年 的 发 展 ,不 断 有 新 的 思想 、 新 方法 融入 其 中 , 目 
前 主要 的 研究 方法 有 基于 专家 知识 的 方法 、 基 于 引文 
的 方法 和 基于 文本 挖掘 的 方法 等 几 类 。 也 有 学 者 将 研 


究 主题 演化 分 为 基于 定性 研究 .基于 定量 研究 .定性 定 
量 相 结合 3 类 方法 。 基 于 专家 知识 的 方法 主要 属于 定 
性 研究 范畴 ,基于 引文 和 文本 挖掘 的 方法 主要 属于 定 
基于 专家 知识 的 方法 。 传 统 的 学 科研 究 主题 识别 
主要 依靠 专家 知识 进行 判读 , 主要 使 用 专家 访谈 方法 、 
德尔 菲 法 TRIZ 方法 ,形态 分 析 方法 ”等 ,这 些 方法 主 
观 性 较 强 ,而 且 成 本 较 高 ,但 由 于 领域 专家 的 公信 力 较 
好 ,这 些 方 法 也 是 目前 被 广泛 采用 的 ,准确 率 最 好 的 研 
究 方 法 。 

基于 引文 的 方法 。 由 于 引用 信息 能 够 很 好 地 表示 
知识 的 传承 信息 ,引用 信息 在 研究 主题 发 现 和 演化 分 
析 上 有 非常 重要 的 作用 ,此 类 方法 主要 有 N. P. Hum- 
mon"! A. Martinelli ,L. Y. Y. Liu 等 所 等 使 用 的 引 
文 主 路 径 方法 和 A. Pilkington 等 5 R. J. Lai 等 上 使 
用 的 引文 聚 类 方法 等 。 

基于 文本 挖掘 的 方法 。 随 着 深度 学 习 和 自然 语言 
处 理 等 技术 的 发 展 和 计算 机 处 理 能 力 的 提升 ,文本 挖 
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据 方 法 在 研究 主题 演化 分 析 中 ,发 挥 着 越 来 越 重要 的 
作用 。 文 本 挖掘 的 方法 又 可 以 分 为 :基于 关键 词 共 现 
的 方法 ”基于 句法 结构 分 析 的 方法 ”和 基于 概率 主 


题 模型 的 方法 ” E, 
3 种 主题 演化 分 析 方法 的 对 比如 表 1 所 示 : 


R1 研究 主题 演化 分 析 的 主要 方法 


方法 主要 思路 优势 当前 不 足 
基于 专家 知识 的 方法 ”通过 专家 访谈 等 方法 建构 领域 研究 主 ”专家 解读 权威 性 依靠 人 工 , 花 费 较 大 
题 演化 趋势 
基于 引文 分 析 文献 的 引用 关系 计算 文献 及 主题 相似 ” 多 种 引文 关系 定量 描述 文献 之 间 的 相似 性 ,有 利 ”引文 覆盖 面 较 窄 ,引文 动机 干扰 ,有 时 
性 于 发 现 主题 的 继承 发 展 关系 清 性 
基于 文本 挖掘 通过 计算 主题 的 词 分 布 ,及 分 布 距离 得 ” 极 大 地 促进 了 主题 演化 分 析 方 法 的 自动 化 与 效 ”依赖 计算 机 处 理 , 运 算 环 节 对 结果 影响 
到 主题 相似 性 率 ,有 助 于 主题 相关 性 测度 较 大 


目前 的 主题 演化 分 析 方法 重 现状 分 析 、 轻 未 来 巴 
测 。 特 别 是 ,最 近 时 间 片 内 的 主题 趋势 分 析 不 准确 ,这 
主要 是 由 于 论文 发 表 时 延 或 数据 出 版 商 收录 数据 的 时 
延 等 因素 ,使 得 最 近 时 间 片 内 论文 收录 不 完全 导致 的 。 
等 若 认 为 ,最 近 时 间 片 内 的 论文 数据 有 如 下 两 个 村 点 : 
CO(I ) 数 据 价值 高 。 最 近 时 间 片 内 论文 与 现在 时 间 
胡 泣 , 最 能 反映 近期 的 研究 主题 的 分 布 情况 ,数据 价值 
D DNE S E 

eO) 数据 不 完整 。 最 近 的 论文 数据 又 是 不 完整 
的: 训 果 只 是 使 用 这 个 不 完整 的 数据 ,进行 展示 和 巴 


2 ”研究 方法 流程 

本 文 的 研究 主题 演化 的 研究 流程 整体 分 为 两 个 阶 
段 :第 一 阶段 为 数据 处 理 与 研究 主题 识别 阶段 ,其 核心 
是 研究 主题 表示 与 抽取 ;第 二 阶段 为 研究 主题 趋势 分 
析 与 展示 阶段 ,其 核心 是 主题 关联 与 主题 趋势 预测 。 
两 者 的 关系 为 主题 表示 与 抽取 是 后 续 趋 势 分 析 的 基础 
和 前 提 , 一 个 好 的 主题 表示 方法 才能 使 得 后 面 趋势 分 
析 结 果 站 得 住 脚 .容易 解释 ,主题 趋势 分 析 是 目的 和 结 
AR ,趋势 分 析 的 结果 能 够 服务 于 科研 态势 分 析 科技 决 


测 $ 会 产生 不 正确 的 分 析 和 预测 结果 。 策 部 署 等 情报 分 析 任务 。 具 体 如 图 1 所 示 : 
N 一 一 
文档 - 主题 矩阵 i 

> 时 间 片 划分 y | 主题 建 模 EE 
x 语义 增强 主题 -短语 矩阵 主题 相似 度 主题 预测 
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Q 结果 展示 

人 | 
数据 处 理 与 研究 主题 识别 研究 主题 趋势 分 析 与 展示 


1 主题 演化 分 析 的 方法 流程 


(1) 数 据 人 处 理 与 研究 主题 识别 。 从 数据 库 提供 商 
处 ,采用 一 定 的 检索 策略 进行 数据 检索 ,将 下 载 数据 进 
行 数据 去 重 \ 缺 失 项 处 理 \ 停 用 词 去 除 和 词 干 还 原 等 操 
作 ,形成 清洗 过 后 的 领域 语料库 。 抽 取 待 分 析 字 段 ( 关 
键 词 标题 .摘要 或 全 文 等 ) ,再 按照 一 定 的 规则 进行 时 
间 片 划分 。 用 2.1 节 介 绍 的 主题 建 模 方 法 进行 主题 抽 
取 与 主题 语义 增强 ,得 到 文档 主题 关系 和 主题 - 词语 
关系 两 个 和 矩阵。 

(2) 研 究 主 题 趋 势 分 析 与 可 视 化 展示 。 对 计算 得 
到 的 研究 主题 ,采用 不 同 的 相似 度 计算 方式 进行 主题 


关联 ,在 不 同时 间 片 内 进行 主题 强度 计算 ,得 到 相应 的 
时 间 序 列 ,再 在 数据 完整 准确 的 阶段 采用 2.3 rU 
述 的 时 间 序 列 分 析 方 法 进行 主题 趋势 预测 ,使 用 近期 
不 完整 的 数据 进行 预测 修正 ,获得 主题 趋势 。 以 研究 
主题 的 生命 周期 理论 为 指导 ,并 与 领域 专家 向 结合 ,对 
主题 趋势 进行 分 析 和 解读 。 以 折线 图 .主题 河流 图 等 
形式 可 视 化 展示 出 研究 主题 强度 变化 趋势 。 
2.1 主题 表示 建 模 

LDA 主题 模型 是 D. M. Blei 等 在 2003 年 提出 的 
主题 表示 模型 ” ,由 于 它 能 够 很 好 地 抽取 出 文档 中 的 
隐 性 主题 ,迅速 成 为 主题 抽取 与 表示 领域 使 用 最 为 广 
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泛 的 模型 ,后 面 很 多 人 对 原始 的 LDA 模型 进行 了 各 种 
各 样 的 改进 ,如 DTM?” .TOTI2 等 ,但 后 面 一 些 算法 的 
计算 复杂 度 更 高 ,不 容易 在 情报 分 析 工具 中 进行 集成 。 
LDA 模型 是 一 种 贝 叶 斯 概率 模型 , 它 假设 文档 是 
由 若干 的 隐 含 主题 构成 的 ,而 主题 是 由 词 构成 的 。 具 
体 而 言 ,假设 有 文档 集 D, 其 中 有 M 篇 文档 d ,d ，…， 
dy ,第 m 篇 文档 的 长 度 为 N,, 则 LDA 模型 的 文档 生成 
过 程 为 :从 参数 为 & 的 Dirichlet 分 布 中 采样 生成 文档 
d, 的 主题 分 布 0,; 加 从 参数 为 0, 的 多 项 式 分 布 采样 生 
成 文档 d, 中 第 j 个 单词 w ,的 主题 1,;@@ 从 参数 为 B 的 
Dirichlet 分 布 中 采样 生成 主题 z,, 的 词语 分 布 $,,; @ 
从 词语 的 多 项 式 分 布 @， 中 采样 最 终生 成 词语 w ，, 设 
文档 集中 词典 的 大 小 为 N, , 主题 的 个 数 为 N;( 下 面 几 
ARESA) 。 
( 吕 这 样 ,单词 和 主题 联合 概率 分 布 可 以 表示 为 


< 一 一 > IY TEN £B) " An, +a) 
kzi A(G) mal Ala) 
公式 (1) 


< 寺 可 以 利用 公式 (1) 进行 主题 模型 参数 估计 ,D.M. 
Bs 原始 论文 中 采用 E-M 方法 进行 参数 估计 ,运行 效 


弄 的 落地 应 用 。 M. Hoffman 等 由 提出 了 LDA 模型 的 
Oiiline Learning 方法 ,采用 批量 更 新 ,再 合并 的 方式 进 
竺 有 练 ,是 大 数据 下 主题 训练 成 为 可 能 。 广 泛 使 用 的 
IEF Python 的 Gensim 工具 箱 中 使 用 的 就 是 这 种 方法 。 
如 图 2 所 示 ; 


Q 


图 2 LDA 主题 模型 


主题 模型 在 应 用 过 程 中 ,为 了 更 好 的 表示 实际 模 
型 ,有 两 个 问题 有 待 讨论 : 

(1) 主题 模型 参数 选择 问题 。 主 题 模型 在 训练 的 
过 程 中 需要 指定 的 参数 主要 有 a,B 和 主题 个 数 等 ， 


寺 别 是 关于 最 优 主题 个 数 的 选择 问题 ,可 以 使 用 困惑 
度 (perplexity ) 指标 ”指导 主题 个 数 选择 , 后面 的 
HDP” 等 非 参 数 主题 模型 ,虽然 引入 了 层次 特征 , 自 
动 进行 选择 ,但 计算 复杂 度 比 较 高 ,效果 也 不 是 很 理 
想 。 最 近 的 研究 一 般 以 Topic Coherence 等 指数 进行 主 
题 评价 ,如 D. Mimno 等 ""”。 还 有 一 些 研究 使 用 融合 
特征 进行 主题 个 数 选择 ,如 王 婷 婷 等 ”。 笔 者 采用 困 
惑 度 和 Coherence 两 个 指标 相 结合 进行 主题 个 数 选择 。 
这 种 方法 相对 来 说 执行 速度 快 ,抽取 效果 较 理 想 , 且 需 
要 的 附加 特征 比较 少 。 这 种 方法 给 出 的 只 是 给 出 主题 
个 数 建议 ,最 终 主题 个 数 还 要 结合 抽取 的 结果 ,由 专家 
判读 决定 。 

(2) 主 题 的 语义 增强 问题 。 传 统 的 主题 模型 采用 

一 组 单词 进行 主题 表示 ,往往 不 容易 进行 主题 解读 , 针 
对 此 问题 ,很 多 学 者 提出 了 一 系列 的 语义 增强 方法 ,如 
TNG'* . CITPM'? . PhraseLDA " | Chunk-LDAvis"" 等 模 
型 ,这 些 模型 都 使 用 词组 进行 主题 表示 ,可 读 性 更 强 。 
笔者 采用 Bi-Gram 进行 主题 语义 增强 ,使 得 抽取 的 主题 
中 不 仅 含有 单词 ,还 有 常见 Bi-Gram 短语 信息 ,这 种 方法 
实现 速度 快 ,人 工 干预 少 , 且 只 需要 在 数据 处 理 时 进行 
一 次 加 工 ,不 需要 在 抽取 结果 后 进行 二 次 加 工 蔚 换 操 
TE ,在 大 规模 预料 抽取 上 性 能 效率 高 于 其 他 方法 。 
2.2 主题 关联 
2.2.1 主题 强度 

在 主题 抽取 之 后 ,需要 对 主题 强度 进行 计算 。 
题 强 度 是 主题 本 身 具 有 的 统计 属性 ,用 来 表征 主题 受 
关注 的 程度 。 当 前 的 话题 计算 方法 主要 采用 基于 主题 
支持 的 文档 数量 .基于 语料库 主题 概率 、 基 于 文本 的 显 

著 性 3 种 , 孙 孟 孟 ”等 比较 了 3 种 方法 ,得 到 结论 3 种 
方法 在 长 文本 下 能 够 得 到 一 致 性 的 分 析 结 果 , 而 方法 
一 得 到 的 结果 相对 更 加 显著 , 故 本 文采 用 方法 一 进行 
主题 强度 表征 。 

主题 强度 定义 :在 第 u 个 时 间 片 内 ,文档 集合 中 文 
档 数量 为 D, ,主题 j 的 强度 可 以 定义 为 归属 为 主题 j 
的 文章 数目 


| Ht 


ST, = Y 0, 公式 (2) 
2.2.2 主题 相似 性 度量 方法 

主题 抽取 之 后 ,笔者 希望 探求 各 个 主题 之 间 的 关 
联 关 系 。 本 文中 的 关联 关系 采用 主题 相似 性 进行 描 
述 ,传统 的 主题 相似 性 从 主题 内 容 分 布 维度 进行 计算 。 
除 此 之 外 ,笔者 采用 主题 共 现 .时 间 趋 势 两 个 新 的 视角 
进行 相似 性 度量 ,提出 共 现 相似 性 、 趋 势 相 似 性 指标 ， 
并 对 这 3 种 相似 性 度量 方式 进行 一 致 性 分 析 。 
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以 干细胞 领域 为 实证 [J]、 图 书 Hai E Eon 


(1) 主题 内 容 相 似 性 。 主 题 的 内 容 相似 性 ,用 来 
表征 各 个 研究 主题 在 内 容 结构 上 的 相似 性 。 具 体 而 
言 ,是 用 主题 在 词语 表示 分 布 上 的 相似 性 来 度量 主题 
相似 性 ,表示 分 布 相似 性 的 方式 有 很 多 , 如 Kullback- 
Leibler ( KL ) 散 度 、Hellinger 距离 Jaecard 距离 Jensen- 
Shannon (JS) BUE Ar, JS 散 度 由 于 具有 对 称 性 的 优 
点 ,更 符合 主题 相似 度 计 算 场 景 ,笔者 选用 JS 散 度 作 
为 内 容 相 似 性 度量 方式 。 设 主题 T;,ie [ 1, NL] opis] 
典 中 单词 w, ke [1,N,] 的 概率 为 eu. 主题 内 容 相似 
性 计算 公式 如 下 : 


; — 1 
simContent ( T,,T,) =1 -J5(9;,,9,) 21- be KL 
— — > — 
> Qu 中 1 — Qt . 
(817577) € KLCe,l I 2 23 公式 (3) 


三 其 中 ,KL 函数 为 KL 散 度 ,具体 的 计算 公式 为 : 
KLCI) = Bon og Tt AR (4) 
(2) 主 题 共 现 相似 性 。 研 究 主题 除了 具有 内 容 结 
攀 儿 ,还 有 其 他 的 一 些 属性 特征 ,可 以 通过 这 些 属性 特 
征 溢 刻画 主题 相似 性 ,例如 笔者 提出 通过 研究 主题 在 
区 和 梢 中 共同 出 现 的 频次 ,来 表征 主题 之 间 的 共 现 相 似 
PENX d, m e [1,M] 中 ,主题 T_i 的 概率 为 g。， 
3E T, 的 概率 为 0 , 则 这 两 个 主题 在 这 篇 文档 中 的 共 


所 全 共 现 相似 性 为 : 
simCoocur( T; T; ) = b min( 0,, , 0,; ) 


公式 (5) 
DO 主题 趋势 相似 性 。 主 题 的 趋势 相似 性 ,用 来 
度量 不 同 的 技术 主题 在 时 间 演 化 趋势 上 的 相似 性 。 每 
个 研究 主题 在 不 同时 间 片 内 的 主题 强度 构成 时 间 序 
列 ,我 们 自然 希望 通过 这 种 时 间 序 列 之 间 的 相似 性 来 
刻画 主题 在 趋势 维度 上 的 相似 性 ,基于 此 笔者 提出 趋 
势 相 似 性 定义 为 : 
simTrends( T, , T;) = (1 + dist(T,, T.) ) ~ 
公式 (6) 
其 中 ,dist(T,,T ) 为 主题 T, 与 主题 T 构成 的 时 间 
序列 |ST,| ,与 |ST |, 之 间 的 距离 度量 。 时 间 序 列 相 
似 性 度量 方法 有 锁 步 类 (lock-step ) 度量 和 弹性 类 (e- 
lastic) 度 量 等 , 锁 步 度量 主要 有 欧式 距离 . 马 氏 距离 
等 ,弹性 度量 主要 有 动态 时 间 规 整 (DTW ) 方法 等 ， 
DTW 方法 能 够 克服 欧式 距离 方法 的 缺点 ,支持 序列 平 
移 ,灵活 方便 地 处 理 多 相位 序列 ,是 时 间 序 列 度量 的 最 
常用 方法 ,DTW 方法 的 距离 计算 方法 采用 动态 规划 的 


N 


方法 ,具体 更 新 公式 可 以 表示 为 : 

dist (T,,T,) = comDist( T, ,T,.) + min( dist( R(T,), 
R(CT,)) ,dist(T,, R(T,) ) ,dis(RCT,) T) ). 公式 (7) 

式 中 R(T;) ,表示 了 T; 中 剩余 的 序列 ,comDist(T，， 
T, ) 表 示 两 个 序列 中 第 一 个 时 间 点 的 距离 ,实际 中 可 
以 选用 欧式 距离 等 度量 。 
2.2.3 三 种 主题 相似 性 度量 方法 的 一 致 性 

三 种 相似 性 方法 从 不 同 的 角度 进行 主题 相似 性 度 
Hi ,需要 的 数据 和 计算 复杂 性 各 异 。 那 么 同样 是 度量 
相似 性 ,这 三 种 方法 得 到 的 结果 是 不 是 一 致 的 呢 ? 笔 
者 采用 编辑 距离 的 方法 度量 不 同 主题 相似 性 度量 方法 
的 结果 一 致 性 。 采 用 2.2.2 节 中 介绍 的 相似 的 度量 方 
法 ,按照 和 某 个 主题 相似 度 从 大 到 小 的 顺序 ,得 到 一 个 
序列 ,通过 比较 不 同 主题 相似 性 度量 结果 得 到 的 序列 
的 相似 性 进而 衡量 方法 的 一 致 性 。 笔 者 通过 Vladimir 
Levenshtein 提出 的 编辑 距离 来 度量 序列 相似 性 ,这 种 
编辑 距离 表示 从 一 个 序列 经 过 插入 、 删 除 或 替换 操作 
变换 成 另 一 个 序列 的 最 小 操作 数目 。 两 种 相似 性 度量 
方法 生成 序列 的 编辑 距离 就 越 小 ,说 明 它 们 的 一 致 性 
越 强 ,反之 则 说 明 它 们 一 致 性 弱 。 
2.3 ”主题 趋势 预测 

每 个 主题 的 强度 形成 一 个 时 间 序 列 ,如 果 以 一 年 
为 一 个 时 间 片 ,由 于 最 近 时 间 片 数据 不 完整 ,首先 去 掉 
不 完整 数据 时 间 片 ,用 前 面 的 数据 进行 建 模 。 但 同时 
最 近 时 间 片 的 数据 更 可 以 反应 最 近 时 间 内 的 主题 趋 
势 , 故 使 用 这 个 时 间 片 内 的 数据 进行 预测 修正 ,并 基于 
模型 和 修正 数据 进行 未 来 的 趋势 预测 。 

问题 描述 : 设 第 u 个 时 间 片 内 ,主题 j 的 强度 为 
ST, ,对 每 个 主题 j ,不 同时 间 片 内 的 主题 强度 构成 一 个 
时 间 序 列 |ST, ,ST, ,STs ,…STu_ wyi 用 希望 预测 第 T(T 


>U) 个 时 间 片 内 的 主题 强度 Sr 。 

(1) 基 本 模型 。 目 前 主流 的 时 间 序 列 模型 主要 有 
ARIMA 模型 LSTM 神经 网 络 模型 ” 等 。ARIAM 模型 
在 短 时 间 预 测 比较 有 效 ,LSTM 在 长 时 间 的 预测 较为 有 
效 , 具 体 到 本 问题 中 ,由 于 以 年 为 时 间 单 位 ,训练 数据 
较 少 ,LSTM 类 神经 网 络 模 型 很 难 达 到 收敛 。 

2018 年 Facebook 开源 了 Prophet ( 先知 ) 神 经 网 络 
预测 工具 “之 后 ,其 迅速 成 为 时 间 序 列 分 析 的 热门 工 
具 , 截 至 2019 4E 7 H 22 日 ,项 目 在 Github. 上 的 关注 
BE : Watch (设置 项 目 变 化 邮件 提醒 的 人 数 ) 值 为 376， 
Star( 关注 项 目的 人 次 ) 值 为 8 888 , Fork (55 n i H BA 
次 ) 值 为 2 172。Prophet 模型 是 一 个 加 法 模型 , 它 假 设 
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观测 变量 的 规律 满足 如 下 公式 : 
YO) =g(D +s(D +h(D +e, 公式 (8) 

rh CO 为 非 周期 性 的 增长 的 趋势 项 ,s(t) 是 周 
期 因素 项 ,h(t) 为 节假日 因素 项 ,s 为 满足 正 态 分 布 的 
误差 项 。 和 以 往 的 模型 相 比 ,Prophet 模型 具有 自动 性 
好 .可 解释 性 强 、 可 扩展 性 强 、 训 练 速度 快 等 优点 。 对 
本 研究 而 言 , 各 个 研究 主题 的 发 展 呈 现 明显 的 增长 赵 
势 ,而 且 数据 点 个 数 相对 不 多 。 相 校 于 经 典 的 ARIMA 
模型 ,Prophet 模型 能 够 更 好 地 预测 增长 趋势 , 且 比 LSTM 
等 需要 大 样本 数据 训练 的 模型 ,更 容易 达到 收敛 。 

Prophet 中 使 用 了 侈 和 增长 (logistic) 与 分 段 线性 
(linear) 两 种 趋势 增长 模型 ,此 外 Prophet 模型 还 将 变 
点 检测 显 式 引入 模型 中 , 若 设 模型 随时 间 变 化 的 承载 
能 办 为 C(t) ,在 S 个 变 点 处 的 变化 率 向 量 为 8, 计算 处 
的 调整 向 量 为 y,a(t) 为 指示 向 量 < 10,11”, 则 有 人 钨 和 
模型 趋势 增长 公式 为 ; 


C J 
wu 


) = C(t) 
] +exp( - (k +a(t) 8) (t- (m«a(t)' y) 


公式 (9) 


线性 模型 的 增长 公式 为 : 
g(t) =(k+a(t) 8)t+(m+a(t)' y) 

=) AR (10) 
CN 在 本 研究 中 ,引入 Prophet 趋势 增长 模型 进行 主题 
趋 贡 预测。 具体 做 法 为 ,以 年 为 单位 进行 时 间 切 片 , 暂 
时 条 考虑 周期 因素 和 节假日 因素 的 影响 ,设置 weekly_ 
sedsónality - False, daily seasonality = False。 由 于 趋势 
数据 量 相对 较 少 ,将 changepoint 的 个 数 设置 小 些 , 本 研 
究 丽 设置 为 3, 其 他 参数 使 用 模型 默认 。 

— (2) 预测 修正 。 由 于 所 有 研究 主题 对 应 的 文章 的 
采集 时 间 是 相同 的 ,在 最 后 时 间 片 内 ,可 以 近似 地 认为 
每 个 研究 主题 的 缺失 比例 都 是 一 样 的。 根据 这 个 比 
例 ,笔者 提出 对 Prophet 模型 预测 出 来 的 数值 进行 修正 
( 见 公 式 11), ST 为 实际 观测 到 的 T 时 刻 主 题 强度 ， 


Sm 为 采用 Prophet 模型 预测 出 来 的 工时 刻 主题 强 
ST; 为 修正 后 的 下 时 刻 主题 强度 。 


s 


ST; = 一 所 一 公式 (11) 


加 入 修正 模型 后 ,整体 的 预测 流程 变 为 3 阶段 模 
型 :中 去 掉 不 完整 数据 ,使 用 Prophet 模型 进行 预 预测 ; 
@) 根 据 最 近 时 间 片 的 数据 ,使 用 公式 (8 ) 对 预 预 测 结 
果 进 行 数值 修正 ;@@ 基 于 预测 - 修正 的 数据 进行 后 面 
时 间 片 的 主题 强度 演化 趋势 预测 。 


3 ”实证 研究 


干细胞 与 再 生 医 学 的 研究 为 癌症 等 疾病 的 治疗 带 
来 革命 性 的 变革 ,9 次 人选 美国 《4 科学》 杂志 十 大 科技 
进展 ,也 是 当前 国内 外 生物 医学 领域 的 研究 热点 ,国家 
重点 研发 计划 等 重大 科技 项 目 中 也 多 次 布局 相关 项 
目 , 故 笔者 选取 干细胞 领域 进行 实证 研究 。 在 ISI Web 
of Knowledge 中 以 检索 式 (TI = Stem Cells) 进行 检索 ， 
检索 时 间 2019 年 5 月 ,检索 得 到 文章 433 469 篇 ,检索 
结果 中 不 同年 份 的 文章 数量 如 图 3 所 示 , 可 以 看 出 文 
章 数量 呈现 出 缓慢 增长 到 快速 增长 再 到 饱和 增长 的 趋 
势 ,最 近 两 年 由 于 数据 收录 不 完整 , 故 呈 现下 降 趋 势 。 
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图 3 不 同年 份 的 文章 数量 
3.1 数据 预 处 理 

(1) 关 键 词 抽取 。 在 数据 预 处 理 过 程 ,首先 提取 
出 论文 中 的 标题 和 摘要 字段 ,其 次 使 用 正则 表达 式 匹 
配 的 方式 去 掉 原始 文献 中 的 标点 符号 、 数 字 、email 地 
址 等 特殊 字符 ,使 用 gensim 工具 中 的 utils. simple_pre- 
process 工具 进行 初步 的 分 词 处 理 。 之 后 ,使 用 工业 级 
的 自然 语言 处 理工 具 Spacy 进行 句子 中 单词 的 词性 分 
析 , 抽 取出 抽取 名 词 .动词 ,形容词 .副词 实 词 作为 主题 
抽取 的 对 象 。 

(2) 主题 的 语义 增强 。 主 题 的 语义 增强 有 在 预 
处 理 时 进行 增强 和 主题 抽取 后 进行 增强 两 种 方式 ， 
笔者 采用 文章 “类似 的 方式 ,综合 考虑 计算 时 间 复 
杂 度 ,使 用 Bi-Gram 进行 增强 ,用 gensim 工具 中 的 
models. Phrases 工具 提取 出 Bigram 短语 ,加 入 原始 文 
本 之 中 ,使 得 提取 出 的 主题 中 能 够 含有 更 多 可 解释 
性 信息 。 

3.2 干细胞 领域 研究 主题 的 抽取 

采用 Gensim 中 的 LDA 模型 ,参数 alpha 设置 为 
' auto" ,采用 困惑 度 和 连贯 性 两 个 指标 指导 进行 主题 
个 数 选择 ,困惑 度 指 标 计算 采用 包 中 的 log_perplexity 
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以 干细胞 领域 为 实证 [J 中 IpgXive ES i 


进行 计算 ,连贯 性 指标 采用 Gensim 中 的 models. coher- 根据 图 4 的 结果 可 以 看 出 , 随 着 主题 数目 的 增加 ， 
encemodel 进行 计算 。 困惑 度 指标 逐渐 减 小 ,在 10 几 个 技术 主题 的 时 候 , 困 


-9.64 


-9.84 


Log perplexity 
1 
e 
i: 


i 惑 度 指标 已 经 趋 于 稳定 ,而 连贯 性 指标 在 14 -16 个 技 


—*— Coherence 


术 主 题 时 候 达 到 最 好 ,此 后 趋 于 稳定 甚至 下 降 ,根据 文 


r-1.8 

献 59 ,一 般 来 说 连贯 性 指标 比 困惑 度 指标 评价 效果 更 
oE 好 ,又 结合 专家 对 各 个 主题 个 数 情况 下 的 主题 解读 情 
L9. 况 确定 ,研究 主题 的 数量 选择 为 15 个 。 模 型 抽取 出 来 


的 各 个 主题 内 容 和 主题 结构 见 表 2, 表 中 第 一 列 的 主 
in 题 内 容 标签 为 向 领域 专家 咨询 后 给 出 的 ,主题 结构 所 


1 


10 20 30 40 50 在 列表 示 主 题 中 各 个 关键 词 及 在 主题 模型 中 的 词语 分 
Num of topics 布 权重 值 s 
同 主题 个 数 下 的 困惑 度 和 连贯 性 指标 


R2 干细胞 领域 研究 主题 抽取 结果 


序号 和 内 容 


Topicl 
F 细胞 
测 实验 


opic2 
F 细 胞 


00266 


2304 


le Topic4 
N 


Topic11 
细胞 表面 接触 、 
干细胞 培养 
Topic12 
干细胞 与 
人 体 组 织 相关 


0.036 x "group" + 0.020*"day" + 0.017 x "study" + 0.016 x "effect" + 0.016 x "control" + 0.016 * "increase" + 0.014 x " result" 
+ 0.014 * "level" + 0.013 * "age" + 0.013 * " compare" + 0.012 * "rat" + 0.011 * "high" + 0.010 * "significantly" + 0.010 * " num- 
ber" + 0.010 * "method" +0.010 * "week" + 0.009 x "significant" + 0.009 * "change" + 0.009 * "time" + 0.009 * "low" 


0.019 * "cell" + 0.016 * "disease" + 0.016 * "therapy" + 0.012 * "review" -0.012 * "clinical" + 0.010 * " model" + 0.010 * "stem" + 
0.009 s "new" + 0.009 "approach" + 0.009 x "development" + 0.009 s "therapeutic" -0.008 * " treatment" + 0.008 "drug" + 0. 008 
* "base" + 0.008 * "system" 0.007 x "include" + 0.007 x "provide" + 0.007 + "recent" + 0.007 x "study" 0. 007 s " discuss" " 


0.063 * " cell" 0.063 * "cancer" +0. 052 s " tumor" 4-0. 029 s " msc" 40.014 x "stem" +0. 014 x " breast" +0. 012 s " expression" 0.011 
* "lung" 40.010 * "mesenchymal" 0.010 * " mses" + 0.010 s "target" + 0. 009 x "resistance" + 0.008 * " treatment" + 0.008 *" 
drug" + 0.008 * "study" + 0.008 * "tumour" + 0.007 * " carcinoma" + 0.007 * " metastasis" + 0.007 * " therapeutic" + 0.007 * " cscs" 


0.048 * "bone" 40.033 * "tissue" + 0.022 s "scaffold" + 0.015 * "mesenchymal" + 0.014 + " osteogenic" + 0.012 + "regeneration" + 
0.012 * "endothelial" + 0.011 * "cell" + 0.011 * " differentiation" + 0.010 * "marrow" +0.010 * "hydrogel" + 0.010 * " vascular" + 
0.009 x "cardiac" + 0.009 s " collagen" + 0.009 +" repair" + '0.009 x "study" + 0.008 * " formation" + 0.008 * " cartilage" + 
0.008 * "factor" + '0.008 * " derive" 


0.041 x " patient" + 0.028 x "leukemia" 40.022 x "mutation" + 0.021 s "disease" 40.018 x " aml" + 0.017 x " myeloid" + 0.017 x" 
case" + 0.014 * "normal" 40.012 * "acute" + 0.010 * " chronic" + 0.009 "ceml" + 0.008 * " leukemic" +0.008 * " disorder" + 
0.008 * "associate" + 0.007 s "kit" + 0.007 s "kidney" 0.007 s "blast" + 0.006 "md" + 0.006 * "syndrome" + 0.006 s " renal" 


0.044 x "brain" + 0.041 * "neuron" + 0.029 * "rat" + 0.022 s" neural" 0.020 * " neuronal" + 0.020 * "cell" + 0.015 * "injury" + 
0.014 x "adult" 40.013 * "nerve" + 0.013 s "spinal cord" 0.012 s " mouse" + 0.007 x "ens". 0.007 * "model" «0.007 s " study" + 
0.006 * "motor" + 0.006 * "central nervous" 0.006 * "stem" + 0.006 +" astrocyte" + 0.006 * "induce" + 0.006 + "follow" 


0.067 * " gene" + 0.030 s "expression" + 0.023 x " protein" + 0.015 x "sequence" +0.015 *"mrna" + 0.012 * "express" + 0.012 *" 
rna" + 0.012 * "human" + 0.011 "virus" + 0.011 * "dna" + 0.010 * "analysis" + 0.010 » "infection" + 0.009 » "level" + 0.009 
* "vector" + 0.009 * "clone" + 0.008 * "specific" + 0.008 * "target" + 0.008 * "detect" + 0.007 s "transfer" + 0.007 s " high" 


0.185 * "cell" + 0.050 * "stem" 0.025 * "culture" + 0.023 * "human" +0. 020 * " differentiation" + 0.015 * " progenitor" + 0.014 
* "derive" 0.010 s " differentiate" + 0.009 x* "lineage" + 0.009 +" population" 0.008 * "induce" + 0.007 + "pluripotent" + 0.007 
* "factor" + 0.007 x "express" 0.007 * " embryonic" + 0.006 x "potential" + 0.006 s "marker" + 0.006 +" type" +0. 006 +" study" 
+ 0.005 * " generate" 


0.020 * " nucleus" + 0.019 * "neuron" + 0.013 * " bind" + 0.012 * " region"  -- 0. 009 * " protein" + 0.009 * " receptor" + 0.008 x" 
cell" + 0.008 * "site" € 0.007 * "contain" + 0. 007 * " structure" + 0.006 * " domain" + 0.006 * " response" 0. 006 * "terminal" + 
0.006 x "label" + 0.006 * "suggest" + 0.006 "complex" 0.005 x "find" + 0.005 x "activity" + 0.005 s "projection" + 0.005 x " type" 


0.039 * "cell" + 0.022 * "beta" + 0.021 * "expression" + 0.020 * "factor" 0.019 * "induce" + 0.019 "alpha" + 0.018 * " effect" 
+ 0.015 x "receptor" 40.014 x "growth" + 0.014 s "increase" + 0.013 +" protein" 0.012 * " pathway" 0. 011 s " proliferation" + 
0.010 * "level" + 0.010 » "signal" + 0.010 * "role" +0.009 * "activity" + 0.009 s " activation" + 0.009  " differentiation" 0.009 s " 
inhibit" 

0.022 * "cell" + 0.016 * "stem" + 0.012 * "plant" + 0.011 * "activity" + 0.010 x " high" + 0.007 * "root" + 0.007 * " growth". + 
0.007 * "show" +0. 007 + "leaf" + 0.007 s "concentration" + 0.006 x* "wall" + 0.006 * "increase" +0.006 * " membrane" + 0.006 +" 
surface" + 0.005 * "low" + 0.005 * "property" «0.005 * "study" + 0.005 * "result" + 0.005 * " different" + 0.005 * "response" 


0.073 + "cell" + 0.019 + "liver" + 0.017 +" tissue" + 0.014 x "epithelial" 0.012 s "culture" + 0.011 * "human" + 0.010 * " stem" 
+ 0.010 * " muscle" +0. 009 * "skin" + 0.008 * "expression" + 0.008 +" epithelium" + 0.008 * "study" +0. 007 * " regeneration" + 
0. 007 * "stain" + 0. 007 * " hepatocyte" 4-0. 005 * " mouse" +0. 007 * "intestinal" + 0.006 * "type" + 0.005 x " marker" + 0.005 s "day" 
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( 续 表 2) 
主题 序号 和 内 容 主题 结构 
Topic13 0.028 * "gene" + 0.017 + " development" + 0.016 * "cell" + 0.016 +" expression" +0.015 * "mouse" +0.011 * " role" 40. 010 * " dna" 
干细胞 + 0.009 x "mir" + 0.009 * "function" + 0.009 * "factor" + 0.008 * "embryonic" + 0.008 * "embryo" + 0.008 * "mutant" +0.008*" 
基因 表达 transcription" + 0.007 * "regulation" + 0.007 * "protein" +0.007 * " regulate" + 0. 007 * "early" + 0.006 * "specifie" + 0.006 *" 
mechanism" 
Topic14 0.062 x "patient" + 0.020 * " transplantation" + 0.015 x "stem" + 0.014 x "cell" + '0.013 x " treatment". + 0.013 * "dose" + 0.013 +" 
干细胞 chemotherapy" + 0.013 * "high" + 0.011 "transplant" + 0.011 x "disease" + 0.011 x "survival" + 0.010 * "year" +0.010 * "thera- 
与 疾病 治疗 py" + 0.010 * "autologous" + 0.009 * "follow" + 0.009 +" day" + 0.009 » "receive" + 0.009 * "study" + 0.008 * "month" + 0.008 
* " relapse" 
Topicl5 0.078 * "cell" + 0.060 * "ed" + 0.031 * " marrow" + 0.025 * "blood" 0.024 * "hematopoietic" 40. 023 * " bone" 4-0. 016 * " mouse" 
造血 干细胞 +0.016 * " progenitor" + 0.011 + "peripheral" + 0.011 * "esf" + 0.009 x "number" + 0.008 * "stem" + 0.007 » "day" + 0.007 x* "do- 


3.3 主题 强度 计算 及 关联 性 分 析 
(1)3 种 相似 度 度 量 方法 结果 。 根 据 公式 (3)(4) 
(多 分 别 计算 ,得 到 不 同 相 似 性 度量 下 的 各 个 研究 主 


202304.00266v 


IV 


X 


nor" + 0.006 s " transplantation" + 0.006 s "factor" + 0.006 * "antigen" + 0.006 s "cytokine" + 0.006 s " platelet" + 0.006 * "gm. 


csf" 


题 的 相似 性 矩阵 ,以 热力 图 的 形式 表示 各 个 研究 主题 
之 间 的 相似 性 ( 见 图 5) ,图 中 颜色 越 深 的 部 分 表示 相 
似 度 数值 越 大 。 
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5 内 容 相似 性 
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OR 5 中 灰 度 越 深 单元 格 表示 该 行 和 列 的 内 容 相 似 
度 越 强 ,对 角 线 部 分 表示 主题 自身 的 相似 度 , 均 为 1。 
内 容 相似 度 具有 对 称 性 ,图 中 表现 为 关于 对 角 线 对 称 
的 格 点 深浅 相同 。 图 中 topic8-topicl2 , topic10-topic13 


等 格 点 较 深 ,表示 它们 的 内 容 相 似 性 较 强 。 

图 6 为 共 现 强度 计算 结果 ,对 角 线 部 分 为 主题 自 
身 共 现 强度 , 即 主题 出 现 的 频次 。 共 现 强度 也 具有 对 
称 性 。 从 图 6 可 以 看 出 topic8-topic13 ,topic8-topic10 等 
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6 共 现 强度 
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对 应 单元 格 较 深 ,说 明 这 些 主题 共同 出 现 频次 高 ,本 身 
现 频 次 较 高 的 主题 (如 topic8 ,topiclO 等 ) 与 其 他 主 
页 共 现 强度 也 相对 高 些 。 


关于 对 角 线 对 称 的 格 点 颜色 深浅 相同 。 从 图 7 可 以 看 
出 topic5-topic6 ,topic3-topic4 格 点 较 深 ,说 明 这 些 主题 
具有 相似 的 趋势 。 


GR EE 


7 为 趋势 相似 性 计算 结果 ,对 角 线 部 分 为 主题 
自身 的 趋势 相似 性 为 1。 趋势 相似 性 也 具有 对 称 性 ， 
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(2)3 种 相似 性 度量 方法 的 一 致 性 分 析 结 果 。 
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一 致 性 分 析 结 果 


^x AN 
SUO S 


题 内 容 相似 性 共 现 相似 性 趋势 相似 性 内 容 - 趋势 共 现 -趋势 内 容 - 共 现 
Qs  [1, 11, 14, 15, 12,6,4,3, 10, [1,2,8, 4, 11, 10, 14, 12,13, [1,12,7,9,11,15,5,6,4,3, 11 13 12 
N 2,7,13,5,8,9], 15,3,6,7,9,5], 14, 8, 13, 10, 2], 

Qi  [2, 13, 14, 11,8, 3, 4, 5,9, [2,8, 13, 14, 10, 4, 3, 11, 1, — [2, 10, 13, 8, 3, 4, 11, 14, 1, 11 8 11 
N 10, 12, 6, 1, 7, 15], 12,15,5,7,6,9], 9.15, 12, 7,6,5], 

"Topicà — [3,8, 10, 12, 2, 14, 11, 13, 4, [3, 10, 2, 8, 13, 1, 4, 14, 15, [3, 4, 11, 14, 8, 13, 1, 10, 12, 12 10 9 
> 5,15,7,1,6,9], 12,11,7,5,6,9], 15,9,7,6,2,5], 

Emm 

bic4 — [4,12, 11, 8, 2, 10, 3, 15, 6, [4,8, 2, 10, 1, 11, 12, 3, 13, (4,3, 11, 14, 8, 1, 13, 12, I5, 11 11 9 
© 1, 13,7, 14,9, 5], 15, 14,6,7,9, 5], 9,10, 7,6,5,2], 

(bc 15,14,13,3,2,15,11,1,10, [5,2, 14, 10, 13, 8, 15,83, 1， [5,6, 7, 12,15, 9.1, 114,3, 13 14 10 
num 12, 8,9, 7,6,4], 12, 7,4, 11,6,9], 14, 13, 8, 10, 2], 
Spis [6, 12, 10, 8, 13, 1, 9, 4, 15, [6, 8, 10, 2, 13, 1,9, 4, 11， [6,5,7,12,15,9,1,11,4,3, 12 11 8 
3,5 14. 11:5; 7]; 12,3, 14, 7, 15, 5], 14, 8, 13, 10, 2], 
Topic? — [7,13, 10, 8, 11, 9, 3, 12, 1， [7, 13, 2, 8, 10, 11, 15, 1, 3， [7, 5,6, 12,9, 15, 1, 11, 4,3, 13 13 9 
2,4,15,5, 14,6], 9, 12, 4, 14, 5, 6], 14, 13, 8, 10, 2], 
Topic — [8, 12, 3, 13, 15, 11, 10,2, 4,  [8, 2, 13, 10, 4, 15, 12, 3, 1， [8, 13, 3, 14, 11, 4, 10, 2, 1, 11 13 12 
7,6,9,14,5,1], 6, 11, 7, 5,9, 14], 15,9,12, 7,6,5], 
Topic9 — [9,13, 11, 10, 7, 6, 2, 12, 8, [9, 13, 11, 10, 8, 2, 6, 1, 7, [9, 7, 5, 1,6, 12, 15, 11, 4,3, 13 13 9 
5.3,1,4,15, 14], 12, 4,3, 15,5, 14], 14, 8, 13, 10, 2], 
Topicl0 — [10, 13,3, 8, 11, 15, 4, 12, 7, [10, 8, 13, 3, 2, 4, 15, 12, 1, [10, 13, 2, 8, 3, 11, 14, 4, 1, 10 12 10 
6,9,2,1,5,14], 11, 6,7, 5,9, 14], 15,9, 12, 7, 6,5], 
Topicll — [11,1, 9, 8, 2, 12, 13, 4, 10, [11,2, 8, 1, 4, 10, 13, 12, 9, [11, 14, 3, 4, 1, 8, 9, 15, 12, 12 11 11 
3,7,14,15,6,5], 7,3,6,15,14, 5], 13, 7, 10,6, 5,2], 
Topicl2 — [12,8,4, 11,3,13, 6, 10, 15, [12, 8, 10, 2, 4, 13, 1, 11, 3, [12, 1, 7,6,5,15,9, 11, 4,3, 14 13 11 
1,9,7,2,5, 14], 15, 7,14, 9,6, 5], 14, 8, 13, 10, 2], 
Topicl3 — [13,10, 8, 7, 2, 9, 11, 12, 3, [13,8, 10, 2, 3, 7, 12, 11, 9,  [13, 8, 10, 3, 11, 14, 4, 2, 1, 14 11 10 
5,6,4, 15,1, 14], 1, 6,15, 5,4, 14], 15,9, 12, 7,6,5], 
Topicl4 — [14,1,5,2,15,3,11,8,6,4, [14, 2, 15, 1, 5, 3, 10, 8, 4, [14, 11, 3, 4, 8, 13, 1, 15, 10, 14 13 11 
13, 12, 10, 7, 9], 12, 7,13, 11, 6,9], 9,12, 7,6,5,2], 
Topicl5 — [15,8, 14, 10, 12, 1, 3, 11, 4,  [15, 8, 10, 14, 2, 1, 13, 3, 5, [15, 6, 7, 5, 1, 12, 9, 11, 4, 11 13 10 
6,5,13,7,2,9], 4, 7, 2, 11,6,9], 14, 3, 8, 13, 10, 2], 
平均 值 12.13 11.93 10. 13 
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表 3 的 最 后 一 列 是 对 15 个 研究 主题 的 编辑 距离 
计算 的 平均 值 。 从 表 3 可 以 明显 看 出 :中 几 种 相似 性 
判别 公式 之 间 的 编辑 距离 都 比较 大 ,说 明 内 容 相 似 性 、 
共 现 相似 性 ,趋势 相似 性 3 种 关联 判别 方法 之 间 的 一 
致 性 不 强 , 内 容 / 共 现 相似 性 较 强 的 研究 主题 不 一 定 具 
有 一 致 的 发 展 趋势 ;(23 种 相似 性 判别 方法 的 一 致 性 
顺序 关系 为 :( 内 容 , 共 现 ) > ( 共 现 ,趋势 ) > (AR, 
3). 

3.4 主题 强度 演化 分 析 与 预测 

笔者 采用 3 个 指标 衡量 观测 值 与 真实 值 之 间 的 偏 
25 ,评价 趋势 预测 结果 的 好 坏 。 

RMSE 均 方 根 误差 的 计算 公式 如 下 所 示 : 


LL 


.. RMSE(ST,, Sf.) NES Y! (ST, -全 


公式 (12) 


MAE 平均 绝对 值 误差 的 计算 公式 如 下 所 示 : 
MAE(ST ,SF ) -l X' IST SP,| 
公式 (13) 


R2Score 决定 系数 ( 拟 合 优 度 ) ,R2 值 取 值 范围 是 
0 到 1,R2 越 接近 1, 说 明 拟 合 效果 越 好 。 计 算 公 式 如 
下 所 示 : 


pu 


3 (STu SP) 

Xa (ST, -SF ) 
4X (14) 
X4 中 给 出 了 3 种 趋势 预测 方法 的 结果 比较 ,第 1 
列表 示 采 用 ARMIA 时 间 序 列 分 析 模 型 (用 Auto - ARI- 
MA 工具 ) 分 析 计 算得 到 的 结果 ,第 2 列 为 采用 LSTM 
时 间 序 列 分 析 模 型 得 到 的 结果 ,后 面 3 列表 示 用 
Prophet 模型 进行 序列 预测 的 结果 ,其 中 , 第 3 列表 示 


R2(ST ,SP ) =1 


AE 


表 4 几 种 趋势 预测 方法 的 结果 对 比 


Topic6 


Topic7 


Topic8 (1 060. 000 7 ,824.576 6, (367.57, 235.049, 
-24.162 3) 0.871 4) 

Topic9 (347.405 1 ,224. 650 4, (88.474 7, 55.711 7, 
-0.226 6) 0.902 4) 

Topicl0 (330. 003 3,230. 773 4, (367.471 8, 220.741, 
0.640 9) 0.902) 

Topicll (93.397 6,82.227 2, (260.592 7, 147.442 2, 


Topic12 


Topic13 


Topic14 


Topic15 


Auto — ARIMA LSTM 方法 Prophet 原始 数据 ' Prophet - Prophet- Logistio 
取 对 数 再 还 原 线性 趋势 预测 趋势 预测 
(88.807 7,75.336 9, (195.722 1, 116.318, (102.258 3,72. 564 1, (41. 700 1 ,29. 022 0, (35.434 7,26.915 8, 
0.886 5) 0. 896) 0.975 1) 0.995 8) 0.997 0) 


(459. 14 35 ,287. 087 3, 


0.466 1) 


(341.466 8,291.258 5, 


0.409 3) 


(391.983 2,199.609 9, 


0.025 6) 


(39.440 0,32.421 1, 
0.949 6) 


(329.252 1,297.254 2, 
-3.780 2) 


(71.221 2,63.228 0, 
0.843 7) 


0.942 7) 


(153.775 2,104.745 1, 
0.425 7) 


(912. 392 7,644. 149 7 , 
-5.287 7) 


(243. 774 6,217. 726 5, 
0.160 1) 


(193. 582 4,116.529 1, 
0.272 3) 


(398.211, 235.832 1, 
0.9182) 


(386.798 8, 215.683 4, 


0.823 4) 


(314.041 1, 188.6232, 


0.870 7) 


(66.090 9, 46.815 8, 
0.969 7) 


(113.606 2, 74.666 3, 


0.924 8) 


(102.012 2, 64.831 5, 


0.923 4) 


0. 865 4) 


(137.881 2, 88.926 8, 
0.930 5) 


(411.129 2, 241.578 5, 


0. 862 9) 


(134.401 1, 100.039 1, 


0.968 8) 


(113.243 9, 82.245 2, 
0.910 9) 


(284. 142 3,185. 118 1, 


0.960 6) 


(167.013 8,112.866 4, 


0.968 0) 


(151.028 3,93.007 9, 


0.971 1) 


(86.640 6,62.010 8, 
0.958 1) 


(83.143 6,56.430 9, 
0.966 8) 


(109.985 8,73.675 6, 


0.9350 4) 


(186.348 6,140. 179 5, 


0.970 3) 


(167.470 5,82. 755 4, 


0.816 2) 


(206.935 8,142.639 8, 


0.970 7) 


(145.996 0,106.102 2, 


0.964 8) 


(96.586 1,67.529 7, 
0.971 1) 


(201.983 1,143.382 6, 


0.969 1) 


(248.225 8,187.647 5, 


0.911 5) 


(152.298 3,99.399 7, 
0.894 5) 


(461.674 5,408.370 6, 
0.896 0) 


(361.574 3,318. 511 4, 
0.850 0) 


(300. 529 8,267. 735 3, 
0.885 6) 


(20.419 8,16.830 2, 
0.997 6) 


(28.160 1,22.368 9, 
0.996 2) 


(48. 081 1,33. 767 6, 
0.987 6) 


(263.459 4,235.300 7, 
0.940 7) 


(150.376 2,87.840 3, 
0.851 8) 

(407. 734,361.183 3, 
0. 886 6) 


(38.936 4,30. 761 8, 
0.997 5) 


(23.308 4,18.152 7, 
0.998 3) 


(343.228 2,307. 743 1, 
0.910 7) 


(117.263 7,85.140 9, 
0.980 2) 


(94.092 2,62. 707 9, 
0.959 7) 


(167.939 1,102. 151 3, 
9.986 2) 


(116.937 8,66.851 7, 
0.984 3) 


(109.884 3,58.640 7, 
0.984 7) 


(31.952 7,24.2302, 
0.994 3) 


(26.512 5,20. 5228, 
9. 996 6) 


(51. 719 5,32.332 5, 
0.985 6) 


(82.334 3,64.098 5, 
0.994 2) 


(121.841 3,62. 114 8, 
0.902 7) 


(120.958 6,82.393 7, 
0.990 0) 


(50.119 2,35.645 5, 
0.995 8) 
(27.502 3,20.341 0, 
0.997 7) 


(118.928 5,77.828 9, 
0.989 3) 


(96.975 6,80.4658, 
0.986 5) 


(89.104 9,56.290 9, 
0.963 9) 


采用 通常 的 先 取 对 数 , 拟 合 模型 后 再 还 原 的 方式 ,第 4 
列表 示 直 接 对 原始 数据 采用 线性 趋势 进行 预测 的 结 


PT 


果 , 第 5 列表 示 直 接 对 原始 数据 采用 Logistic 趋势 进行 
预测 的 结果 ,其 中 每 个 单元 格 中 数字 为 (RMSE ,MAE， 
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R2Score) 值 . 从 上 表 可 以 看 出 如 下 结论 : 

(1) 对 各 个 研究 主题 而 言 ,Prophet 模型 的 R2Score 
值 都 达到 0.90 以 上 , 比 ARIMA 模型 和 LSTM 模型 效果 
要 好 些 , 说 明 Prophet 模型 能 够 很 好 地 拟 合 研 究 主题 的 
演化 趋势 。 对 原始 数据 取 对 数 再 还 原 的 方式 并 没有 提 
高 预测 的 准确 性 。 由 于 各 个 主题 的 分 布 具 有 明显 的 增 
长 趋势 ,序列 是 非 平稳 的 ,直接 使 用 ARIMA 模型 效果 
较 差 。 又 由 于 本 例 中 以 年 为 时 间 片 ,数据 相对 较 少 ， 
LSTM 模型 训练 不 充分 ,效果 不 是 很 理想 ,而 且 易 发 生 
过 拟 合 现象 。 而 Prophet 模型 中 的 Logistic 增长 模式 与 
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该 领域 研究 主题 的 增长 模式 相符 合 , 且 模型 参数 较 少 ， 
容易 达到 较 好 的 效果 。 

(2) 各 个 研究 主题 的 时 间 演 化 规律 并 不 一 致 ,大 
部 分 的 研究 主题 更 加 符合 Logistic 趋势 ,但 Topic5、 
Topic7 ,Topicl1 与 Topicl2 常 采 用 线性 趋势 拟 合 效 果 
更 佳 , 略 好 于 Logistic 模型 ,可 能 由 于 这 几 个 研究 主题 
正 处 在 高 速 增长 时 期 ,尚未 达到 饱和 增长 。 

原始 预测 模型 与 预测 — 修正 模型 结果 对 比如 图 8 
Biz: 
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性 图 8 为 同一 个 技术 主题 的 预测 结果 , 左 图 是 对 
2018. 年 的 原始 数据 进行 拟 合 与 预测 结果 , 右 图 是 经 过 
预测 - 修正 之 后 的 拟 合 预 测 结果 ,显然 在 预测 -修正 
模型 使 得 后 面 趋势 预测 部 分 相对 更 平稳 ,波动 性 更 小 ， 
也 更 符合 主题 演化 增长 规律 。 
3.5 ”主题 强度 演化 分 析 与 预测 结果 展示 

使 用 基于 Prophet 的 预测 - 修正 模型 ,在 15 个 研 
究 主 题 上 分 别 进行 模型 拟 合 ,得 到 结果 见 图 9。 从 图 
中 可 以 看 出 ,各 个 研究 主题 基本 符合 模型 增长 规律 ,但 
置信 区 间 宽 度 区 别 比较 大 。 异 常 值 数据 ,特别 是 最 近 
时 间 片 的 异常 数据 对 后 面 预测 结果 影响 比较 大 ,可 以 
使 得 后 续 模型 预测 波动 变 大 ,如 topic2 ,topic10 等 ;此 
外 异常 数据 还 可 能 使 得 置信 区 间 变 得 更 宽 ,如 topic6、 
topic15 等 。 

采用 主题 河流 图 的 方式 将 各 个 技术 主题 的 强度 演 
化 趋势 进行 展示 ,在 图 10 中 将 各 个 研究 主题 的 趋势 分 
析 图 进行 了 又 加 ,每 一 个 灰 度 条 代表 一 个 研究 主题 , 灰 
度 条 的 宽度 代表 不 同 研究 主题 的 主题 强度 ,图 中 可 以 


明显 看 出 不 同 研究 主题 强度 对 比 于 强度 演化 关系 。 
10 (1) 为 未 引入 预测 模型 后 对 原始 数据 的 展示 ,图 10 
(2) 和 10(3) 为 引入 基于 Prophet 的 预测 -修正 模型 之 
后 的 结果 ,其 中 10(2) 中 灰 度 条 的 宽度 代表 主题 强度 ， 
10(3) 中 灰 度 条 的 宽度 代表 主题 相对 强度 , 即 该 时 
间 片 内 特定 主题 的 强度 与 全 部 主题 强度 之 和 的 比值 ， 
主题 相对 强度 更 能 反应 领域 内 各 个 主题 的 结构 性 变 
化 。 右 侧 方 框 部 分 为 2018 年 之 后 的 结果 ,图 10(2) 和 
10 (3) 的 效果 相对 更 符合 演化 的 发 展 规律 ,很 大 程度 上 
解决 了 近期 数据 不 完整 对 趋势 分 析 的 影 

从 图 10(2) 中 可 以 看 出 ,干细胞 各 个 研究 主题 整体 
呈现 增长 态势 。 但 从 图 10(3) 可 以 看 出 领域 中 的 各 个 研 
究 主 题 变 化 趋势 还 是 有 区 别 的 ,如 Topic2( 干 细胞 与 疾 
病 诊疗 ) 这 个 研究 主题 发 展 态势 最 为 迅猛 ,在 整体 研究 
中 所 占 的 比例 逐渐 增 大 ,干细胞 在 越 来 越 多 的 疾病 诊疗 
中 得 到 应 用 。 而 如 Topicl5 (造血 干细胞 ) 等 研究 主题 ， 
理论 研究 已 经 相对 较为 成 熟 , 在 整体 研究 中 占 的 比例 呈 
现下 降 趋势 , 某 些 成 熟 技 术 已 经 从 理论 走向 应 用 。 
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ChinaXiv 合 作 期 于 
以 干细胞 领域 为 实证 [J]. Rips tie 


f 1990 年 与 2000 年 前 后 ,从 图 10(2) 中 可 以 看 出 
各 个 研究 主题 增长 趋势 呈现 明显 变化 (类 似 曲线 中 的 
拐点 ) ,从 图 10(3 ) 中 看 出 各 个 研究 主题 分 布 也 呈现 震 
沪 趋 势 。 这 两 个 时 间 点 与 1988 年 詹姆斯 汤姆 森 分 离 
出 人 类 胚胎 干细胞 等 重大 发 现 ,以 及 1999 年 美国 将 干 
细胞 列 为 十 大 科学 进展 ,2000 年 日 本 干细胞 计划 提出 
大 致 相符 ,说 明 重 大 科学 发 现 不仅 可 能 会 带 来 主题 增 
长 趋势 变化 ,也 可 能 会 带 来 主题 结构 的 变化 。 


4 总 结 讨 论 


研究 主题 分 析 是 进行 科技 决策 的 基础 ,目前 对 研 
究 主题 的 趋势 分 析 大 多 专注 于 研究 主题 的 态势 描述 ， 
对 研究 主题 趋势 规律 性 分 析 和 预测 研究 的 不 够 充分 。 
笔者 提出 一 种 研究 主题 的 趋势 分 析 和 和 预测 方法 ,整体 
模型 分 为 主题 抽取 和 表示 .主题 关联 和 相似 性 分 析 , 主 
题 趋势 分 析 和 预测 。 在 主题 抽取 和 表示 阶段 ,主要 使 
HENDA 模型 进行 抽取 表示 。 在 主题 关联 和 相似 性 分 
柄 阶段 ,使 用 通常 的 内 容 相似 性 \ 以 及 笔者 提出 的 共 现 
DE ,趋势 相似 性 等 指标 进行 主题 相似 性 度量 ,并 探 
主轴 种 主题 相似 性 度量 方法 的 相互 关系 ,得 到 几 种 方 
戒 罗 -一致 性 关系 为 (内 容 , 共 现 ) > ( 共 现 ,趋势 ) > (内 
容 欧 势 ) 。 在 主题 的 趋势 分 析 和 预测 阶段 ,将 Prophet 
楼 浏 引入 到 主题 演化 分 析 当 中 ,进行 强度 演化 趋势 分 
MEID, 比较 了 Prophet 模型 与 ARIMA .LSTM 等 经 
同村 型 的 效果 。 针 对 强度 演化 中 的 近期 数据 不 完整 问 
题 6 笔者 提出 了 的 预测 - 修正 的 两 阶段 模型 ,实验 证 明 
该 模型 能 够 较 好 地 拟 合 主题 现状 和 未 来 演化 趋势 。 
-OO 模 型 的 优 缺 点 与 后 续 工作 如 下 : 

(1) 在 干细胞 领域 进行 实证 分 析 , 数 据 已 经 达到 
了 几 十 万 的 规模 ,时 间 分 片 后 主题 呈现 明显 的 趋势 特 
征 , 可 以 采用 时 间 序 列 模型 进行 拟 合 。 但 数据 覆盖 范 
围 仍 不 够 全 面 ,未 来 将 考虑 在 选择 其 它 的 典型 领域 进 
行 实证 ,进行 不 同 领域 数据 的 对 比分 析 , 进 一 步 验证 笔 
者 提出 方法 的 适用 性 。 

(2) 在 主题 抽取 与 表示 阶段 ,使 用 LDA 模型 进行 
研究 主题 的 表示 ,LDA 模型 具有 能 够 自动 抽取 文档 隐 
含 主题 表示 等 诸多 优点 ,也 是 目前 主题 抽取 表示 中 的 
经 典 方 法 ,但 LDA 主题 模型 存在 表示 能 力 与 可 解释 性 
不 够 强 等 问题 ,还 需要 领域 专家 对 研究 主题 进行 相应 
的 解读 ,上 且 LDA 模型 假设 不 同时 间 片 内 的 主题 数量 是 
一 致 的 ,这 也 是 目前 主题 演化 实用 系统 常用 的 处 理 方 
式 ,这 样 处 理 虽然 有 计算 量 小 等 优势 ,但 在 表示 新 兴 主 
题 产 生 面 有 些 不 足 ,后 续 可 以 考虑 结合 预 训练 模型 等 


方法 进行 研究 主题 表示 模型 的 改进 。 

(3) 在 主题 强度 趋势 预测 中 ,使 用 Prophet 预测 — 
修正 模型 进行 拟 合 分 析 , 具 有 自动 化 程度 高 .易于 实 
现 , 与 主题 增长 规律 符合 等 优点 。 本 文 将 年 作为 时 间 
切片 的 单位 ,以 1 年 为 一 个 时 间 单 元 ,这 样 处 理 比 通常 
情报 学 文章 选取 的 3 -5 年 为 时 间 片 细 一 些 ,更 能 体现 
趋势 特征 。 但 仍旧 力度 较 粗 ,未 充分 利用 Prophet 的 周 
期 和 节假日 模型 的 丰富 表示 能 力 ,未 来 可 以 使 用 更 大 
的 数据 在 更 细 的 粒度 进行 趋势 预测 和 分 析 。 

(4) 通 过 不 同 研究 主题 符合 的 不 同 增长 模式 ,对 
研究 主题 进行 归 类 ,进行 新 兴 与 热门 研究 主题 挖掘 也 
是 后 续 值 得 研究 的 问题 。 可 以 通过 主题 演化 趋势 曲线 
中 的 拐点 或 震荡 点 ,来 推 汤 重大 发 现 或 颠覆 性 技术 出 
现 的 时 间 。 
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Abstract; | Purpose/ significance | Topic evolution analysis plays an important role in detection the technology 


frontier detection and innovation strategy deployment. | Method/process | In this paper, the topic evolution analysis 


process was divided into several steps: topic representation, similarity correlation and intensity evolution calculation. 


The LDA model was used to represent the topic; content, co-occurrence, and trend similarity were proposed for topic 


correlation calculations, and the prophet-based pre-train fine-tuning model was used to predict the topic trends. An 


empirical analysis was conducted using the stem cell field as an example. | Result/conclusion | Experiments show 


that the Logistic growth model has a R2Score of more than 0. 90 for each topic. It shows that the Logistic growth mod- 


el in Prophet is consistent with the growth trend of topics, and can fit the evolution trend of the topic intensity. The 


topic evolution model proposed in this paper has certain reference to topic distribution and evolution analysis in spe- 


cific fields. 
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